1) Скачивание ридов в рабочию директорию
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/000/SRR4240380/SRR4240380.fastq.gz
2) Удаление адапторов в ридах и триммирование. Для этого все отдельные файлы с последовательностями адаптеров были объединены в один функцией cat. Программа удаляет с конца нуклеотиды с качеством прочтения ниже 20 и оставляет риды длиной не меньше 32 нуклеотидов. После триммирования осталось 4865359 рида, а удалено 351959. До отчистки файл имеет вес примерно 112,4 Мб, после отчистки – 103,1 Mб.
java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240380.fastq.gz output.fq.gz ILLUMINACLIP:adapters.fasta:2:7:7 TRAILING:20 MINLEN:32
3) Подготовка k-меров. Программа подготавливает из файла с триммированными чтениями k-меры размером 31 нуклеотид.
velveth Assem 31 -short -fastq.gz output.fq.gz
4) Сборка на основе k-меров. В итоговой сборке N50 равно 12042 нуклеотидов. Средняя арифметическая длина контигов (без учета нулевых) примерно равна 1663 нуклеотидов. Также в сборке присутствует 276 контигов, длина которых меньше 100 нуклеотидов.
velvetg Assem
Информация о контигах была получена из файла stats.txt. Контиги выравнивались с геномом Buchnera aphidicola при помощи blastn (megablast) с настройками по умолчанию.
Номер контига |
Длина контига |
Покрытие |
Число выравниваний |
Границы контига на хромосоме |
Identities/gaps |
1 |
25915 |
27.4 |
6 |
1)333222 to 339010 2)343228 to 346547 3)327227 to 330003 4)324746 to 326950 5)341781 to 343052 6)330333 to 331006 |
4481/185 2589/118 2149/109 1682/66 1008/45 558/2 |
2 |
23850 |
24.7 |
4 |
1)236918 to 247596 2)232358 to 236859 3)229411 to 232057 4)248967 to 252161 |
8182/391 3466/130 2156/71 2527/94 |
3 |
23807 |
25.7 |
3 |
1)573092 to 582686 2)584329 to 587055 3)593743 to 594099 |
7212/461 2100/108 289/4 |